两年前的年记里,谈了谈查阅古文献时遇到的一些不便。对于这些不便,也有一些改进方法的设想。 也做了一点没有头绪的准备工作,采集了许多字形,以备后用。 那时谈改进的设想,谈得非常杂乱。因为一切都晦暗不明,一切都前途渺茫。
用什么方式改进?改进的可行性如何?可行的各个方式,其投入产出比又是如何? 业界已经做了多次的尝试,踟蹰不前了近四十余年。这表明了,即使有可行的改进方式,其代价也大到了大家都不愿接受的程度。
岔路纷繁,云遮雾绕。有时看着是正路的,走了几个岔后才发现此路不通。凡此种种,说出来,也配不上除夕的热闹气氛。这次年记,只说说走对了的部分。
- 资源有限,路径依赖,这两个因素决定了作出的改进须与现有体系兼容。
- 基于此条件,对采集的字形和 Unicode 收录文字进行完全兼容。校对,补完所有 Unicode 收录的近十万个汉字。做到一字不漏,一一对应。
- 构建开放的收录系统,保证快速收录新字的同时能够保持兼容性。
- 人力资源有限,也有其缺陷。这个因素造成了这样一个困境:当有人发起请求要收录新字时,如何确定此新字已收录了?此新字和已收录的哪些字比较相似,可能是其变体?当已收录的字达到十万字规模的时候,已经没人能够记住这么多字形并进行快速处理了。这一困境已在当前的 Unicode 里面造成了许多冗余和杂乱。另外一个困境便是,为这一规模的字库设计一套字体,可能需要一个字体设计公司近十年的时间才能完成。
- 设计人工智能进行辅助识别:收录与否,相似几何。
- 设计人工智能进行辅助字体设计,创造出的字体集反向改进 2.a 辅助识别的精度。
- 缺乏跨平台,异体字兼容输入法。已有的输入法,即使跨平台,但异体字兼容,需具备字体直读,直画能力。
- 已开发完成 Unix, Linux, Windows 兼容的输入法进行任意文字的输入。前端的字体直读直画,输入法逻辑已然解决。Unix, Linux 系统的 X Window 系统提供了 XIM 协议;现代 Windows 提供了 TSF 服务,均已适配。
改进方法的设计和实现,终于达成逻辑闭环。暂歇一会儿后,以上结果,将陆续发布。
这些改进的未来的愿景:学者们做研究,查文献,不再积年累月,不再穷经皓首。
Comments
comments powered by Disqus